高速增长的数据量和日益增加的竞争压力,让越来越多的企业开始思考如何挖掘这些数据的价值。传统的BI系统、数据仓库和数据库系统都不能很好地处理这些数据。原因包括:
1.数据量太大,传统数据库不能有效存储并维持可以接受的性能;
2.新产生的数据往往是非结构化的,而传统方式都是为处理结构化数据而设计的;
3.传统数据处理所需的硬件往往相对昂贵,随着数据量增加而继续用传统方式处理的成本让很多企业不能承受。为此,倍受互联网界推崇的Apache Hadoop这朵奇葩日益吸引了企业界的目光,大量企业都在思考如何把Hadoop这个美丽的新娘娶回自己的数据中心。
不过,传统的企业数据中心要想娶回这个妖艳新娘可不是那么简单。Hadoop的部署、运维都需要很多极客才能完全掌控,完全超出了传统企业数据中心的技术能力;另外,Hadoop不仅需要专门硬件,而且安全和服务等级确保也是挑战。如何能享受美丽新娘的温柔梦乡而不带来其他的后患成为企业选择Hadoop的现实挑战。
从服务器虚拟化到整个数据中心虚拟化,今天我们已经充分感受到了虚拟化这个小子的力量!如果虚拟化能和Hadoop来场恋爱,企业数据中心选择Hadoop的羁绊是不是都会一扫而光呢?答案是肯定的。虚拟化能让Hadoop和底层物理硬件分离,真正步入云端翩跹起舞,Hadoop从而轻松步入快速部署、高可用、资源弹性调度和安全多租户的云端殿堂,企业数据中心大数据分析和利用的美梦才能真正成为现实。
让我们一起来揭开虚拟化这小子的恋爱秘籍吧,以便更好地利用Hadoop来应对大数据的挑战。
1.快速部署Hadoop:我们已经熟悉虚拟化的密码,包括虚拟机、快照、模板、资源动态分配等,这些特性能很好地降服了大量应用部署的难题,Hadoop当然也不在话下,可以大幅度提高Hadoop节点的部署速度。同时,可以按需快速启动和关闭Hadoop节点,从而实现资源的高效利用,比如VMware发布的Serengeti开源项目,助推了虚拟化和Hadoop之恋的进程;
2.为Hadoop提供高可用和容错能力:尽管Hadoop通过数据分布复制提高了系统可靠性,但仍然有很多部件存在单点故障,这种结构在互联网企业中可能不是问题,但对传统数据中心来说绝对是个挑战。比如:Namenode和jobtracker以及某些支持模块都存在单点故障,通过虚拟小子的平台高可用可以为这些模组轻松赋予高可靠的特性,让Hadoop走进企业数据中心后,您仍然能高枕无忧;
3.拥抱Hadoop的高效数据中心:通过虚拟小子动态调度能力,可以将各种不同的负载混搭在企业数据中心云端平台,Hadoop当然也可以与其他负载同床共枕,通过严格的安全隔离,确保不会发生任何冲突。甚至你可以在同一云平台运行不同版本的Hadoop,相互之间和平共处,资源共享,在确保可用性、性能的前提下,降低了传统部署Hadoop的总体成本,轻松实现了高效数据中心的目标;
4.大幅提升Hadoop环境资源利用率:将Hadoop和其他负载部署在同一主机上,通过资源控制策略来实现资源的高效分配和调度,实现Hadoop在云端的完美漫步,是虚拟化小子赢得这场恋爱的关键一环;
5.Hadoop云端多租户:通过虚拟化的隔离能力,Hadoop确保本身多租户的完美体验,不同的租户可以将Hadoop和其他负载混合运行在云端资源池,多租户顺利部署实现;
6.安全隔离:虚拟小子的安全隔离能力,让不同组织、用户的Hadoop可以无忧运行,轻松达成数据和环境完全隔离的目标,同时共享底层的物理资源;
7.易于维护和迁移:虚拟化让Hadoop节点易于复制、迁移,方便了同数据中心不同集群之间、一个数据中心到另一个数据中心跨云迁移等瞬间实现,Hadoop再也不是一个行动不便的媚娘。
虚拟小子通过7板斧顺利赢得了Hadoop的芳心,不仅仅让Hadoop没给传统的企业数据中心添乱, 而且Hadoop在虚拟平台上的魅力未减,因为大量的事实已经印证了虚拟化的Hadoop节点运行性能依然堪比物理环境,同时还带来了大量的成本节约。 Hadoop和虚拟化门当户对,他们的恋爱之果值得我们共同期待和祝愿:祝Hadoop和虚拟化白头偕老,永结同心,百年好合!
自动安装的Hadoop在/usr/local/Cellar/hadoop路径下。需要注意的是,在使用brew安装软件时,会自动检测安装包的依赖关系,并安装有依赖关系的包
数据不仅代表着生产力,还将成为重要的资产,或许在将来,我们留给下一代的资产,不是银行里有多少存款,而是信息资产;也许10年、15年之后,会有国家的数据银行,相对今天的财富资产,里面保存的是我们的信息资产。
Netflix已经把触角深入到大数据工作负载的领域。Netflix是一个“重量级”的Hadoop用户,在2012年6月份Gigaom的记者Derrick Harris就撰文阐述了Netflix如何收集用户的数据,进而使用一些方法来对这些数据进行分析.
YARN本质上是Hadoop的新操作系统,突破了MapReduce框架的性能瓶颈。Murthy认为Hadoop和YARN的组合是企业大数据平台致胜的关键。
想知道Hadoop在Aix下的安装是否会有什么不同,于是心血来潮的安装了一遍,过程记录如下:1.在Aix上安装解压缩软件,安装Java等,这里就不说了。2.下载Hadoop0.21.0版本,并解压至特定目录下,这里解压到 /home/cqq/hadoop-0.21.0。
【聚焦搜索,数智采购】2021第一届百度爱采购数智大会即将于5月28日在上海盛大开启!
本次大会上,紫晶存储董事、总经理钟国裕作为公司代表,与中国—东盟信息港签署合作协议
XEUS统一存储已成功承载宣武医院PACS系统近5年的历史数据迁移,为支持各业务科室蓬勃扩张的数据增量和访问、调用乃至分析需求奠定了坚实基础。
大兆科技全方面展示大兆科技在医疗信息化建设中数据存储系统方面取得的成就。
双方相信,通过本次合作,能够使双方进一步提升技术实力、提升产品品质及服务质量,为客户创造更大价值。